1. データ分布の要約

https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329

https://amzn.to/32dVAdF

1.1. データの整理

データの持つ情報を取り出すことが統計的分析(statistical analysis)の目的

測定(measurement)

回答者や事物や事象などの観測対象(observed object, observation)に、定められた操作に基づいて数値を割り当てること

測定値(measured value)

測定によって割り当てられた数値

データ(data)

測定値の集まり

心理学的知覚時間の実験

データの分析は、一つ一つの測定値を丁寧に観察することから始める

ここでは主観的時間が測定値

30秒以上が15回、30秒未満が5回

測定値の数を$ nとするとデータは以下のように表現する

$ x = (x_1, x_2, \cdots x_i, \cdots x_{n-1}, x_n)

$ iは添え字といい、観測対象を区別するための数字

$ x_iは、ここでは、$ i番目の測定値

知覚時間の実験では$ n = 20であり、データは以下のように表現する

$ x = (31.43, 31.09, 33.38, \cdots 31.57)

1.1.1. 図的要約

データの入力ミスのチェックも行いながら、データを観察することは大切

しかし、目視には限界があるので、続いてデータ分布(data distribution)を調べる

分布(distribution)

どのあたりにどれくらいのデータが観察されているかの様子

データの分布を調べるためには度数分布表とヒストグラムを作成することが効果的

度数分布表(frequency distribution table)

階級に観察された度数をまとめた表

度数(frequency)

観察された測定値の数

階級(class)

測定値の区間

階級値(class value)

階級を代表する値の呼び名

通常は階級の真ん中の値

観察対象がその階級で観察される確率(probability)は度数を$ nで割った値

累積度数(comulative frequency)

その階級以下の度数の和

累積確率(comulative probability)

累積度数を$ nで割った値

度数分布表を観察すると、たとえば以下のようなことがわかる

$ 20\%のデータが階級値$ 32秒であること

$ 75\%のデータが階級値$ 32秒以下であること

ヒストグラム(histogram)

縦軸に度数、横軸に階級あるいは階級値を配した統計グラフ

分布の様子を視覚的に理解するために有効

ヒストグラムが示しているのはデータの唯一の視覚的イメージではない

階級と階級幅を変えると、ヒストグラムの印象も変わる

1.1.2. 数値要約

度数分布表やヒストグラムはデータの有する詳細な情報を有しているが、手軽さに欠ける

そこで、データの特徴を要約的に記述するための数的な指標を利用する

統計量(statistic)

データを独立変数とみたときの関数

$ 統計量 = f(データ)

要約統計量(summary statistic)

データの性質を縮約するための統計量

数値要約(numerical summary)

要約統計量でデータの特徴を要約すること

初歩的な要約統計量には代表値と散布度がある

代表値(representative value)

分布の位置(location)を記述する要約統計量

データ全体の特徴を1つの数値で表す場合には代表値を利用する

具体的な代表値として、平均値・中央値・最頻値

平均値(mean)

すべての測定値の合計を$ nで割る

$ \overline{x} = \frac{1}{n}(x_1+x_2+\cdots+x_i+\cdots+x_{n-1}+x_n)

$ \overline{x}はえっくすばーと読む

「知覚時間」データの平均値は$ \overline{x} = 31.04秒であった

これは分布の中心的位置に関する目安

中央値と最頻値は後述する

散布度(dispersion)

測定値が分布の中心的な位置から平均的にどれほど散らばっているかに関する要約統計量

散布度の要約統計量としては分散と標準偏差を紹介する

分散(variance)

偏差を2乗した値の平均

偏差(deviation)$ x_i - \overline{x}

個々の測定値から平均を引いたもの

偏差の平均を計算しても散布度にはならない

偏差には負の値も含まれるので、偏差の2乗を計算した値の平均を使う

$ s^2 = \frac{1}{n}((x_1 - \overline{x})^2 + \cdots +(x_i - \overline{x})^2 + \cdots + (x_n - \overline{x}^2))

「知覚時間」データの分散は$ s^2 = 4.28

標準偏差(standard deviation)

分散の平方根で、元の測定単位に戻す

「知覚時間」データの標準偏差は$ s = 2.07秒

平均から平均的に約$ 2秒測定値が散らばっている

さらに高度な要約統計量

歪度(skewness)

分布の歪みを表現する

尖度(kurtosis)

分布の裾の重さを表現する

積率(moment)系の統計量

平均や分散や標準偏差のように、データの関数の平均値の形式で求める統計量

(外れ値(outlier))を受けやすいという短所

分位(quantile)系の統計量

ソートした情報を利用して求める統計量

ソート(sort)

データを小さい順に並び替えること

外れ値の影響を受けにくいという長所

主な分位系の統計量として、最小値・最大値・中央値・%点を紹介する

最小値(minimum)・最大値(maximum)

「知覚時間」データでは最小値は$ 25.39秒、最大値は$ 35.40秒

中央値(median)

$ x^n = \begin{cases} \frac{n+1}{2}番目の測定値 & nが奇数の場合 \\ \frac{n}{2}番目と\frac{n}{2}+1番目の測定値の平均 & nが偶数の場合\end{cases}

中央値は位置に関する分位系の要約統計量

この場合は$ n = 20であり、データ数は偶数だから中央値は$ 10番目と$ 11番目の測定値の平均、$ 31.26秒($ = \frac{(31.09 + 31.43)}{2})

α%点(α percentile)、パーセンタイル

その測定値の下方に全データの$ \alpha\%があるような値

たとえば30%点は30.15秒であり、70%点は32.33秒

四分位点(quartile point)

第1四分位(the first quartile)

25%点

第2四分位(the second quartile)

50%点(中央値)

第3四分位(the third quartile)

75%点

2つの%点の区間を考察することによって、データの散布の様子を知ることができる

最大値と最小値によって構成される区間(ここでは$ [25.39, 35.40] )にはすべての測定値が含まれる

これを範囲(range)という

両側$ 10\% のデータを捨てて構成される区間(ここでは$ [28.96, 32.68] )には全体の80%の測定値が含まれる

最頻値(mode, $ x_{mod})

最大度数を有する階級値

最頻値は中央値と同じように外れ値の値を受けにくいという長所

ヒストグラムの印象と同様、階級・階級幅を変化させると、連続的な変数の最頻値は変化することがあるという短所

要約統計量がデータから計算されたことを強調し、次節で導入する理論分布のそれと明確に区別したい場合

標本(sample)という接頭語をつけて強調する

標本平均・標本中央値・標本分散・標本標準偏差など

1.2. 経験分布と理論分布

度数分布やヒストグラムで示されるデータ分布は経験的(客観的)な事実である

このためデータ分布を経験分布(empirical distribution)ということがある

経験的事実を観察することは大切であるが、それだけでは推論が先に進まない

そこでデータの性質に関する推論を行うために理論分布(theoretical distribution)という視点を導入する

1.2.1. 正規分布

正規分布(normal distribution)

連続的な変数の分布の近似として最も頻繁に利用される理論分布

平均値の付近に度数が大きく、両側に離れるに従って、度数が小さくなるデータを記述するのに適している

確率密度関数(probability density function, PDF, 略して密度関数)]

確率密度を与える関数

正規分布の密度関数は以下のように定義される

$ f(x|\mu, \sigma)= \frac{1}{\sqrt{2\pi\sigma}}\exp[\frac{-1}{2\sigma^2}(x-\mu)^2], -\infty \leq x \leq +\infty

$ |はgivenと読む

$ \expはexponentと読む

$ \exp[a] は$ e^aである

$ f(a) = e^aを指数関数という

$ eはネイピア数(Napier's constant)と呼ばれる定数であり、$ e = 2.7182818\cdots

$ e の肩に乗せると小さくなる場合には$ \exp[a] と表記する

ここで$ xに一次変換を施す

一次変換: 定数を足して、0でない指数をかける

$ z = \frac{x-\mu}{\sigma}

平均を引いて標準偏差で割る一次変換を標準化(standardization)という

標準化された$ zの密度関数は以下のようになる

$ f(z|\mu = 0, \sigma =1) = \frac{1}{\sqrt{2\pi}}\exp[\frac{-1}{2}z^2], -\infty \leq z \leq +\infty

これを標準正規分布(standard normal distribution)という

$ xが正規分布に従っていることを$ x \sim N(\mu, \sigma)と表現する

ここで$ \muを平均、$ \sigmaを標準偏差、$ \sigma^2を分散という

標準正規分布の平均は$ 0、標準偏差は$ 1である

理論分布のそれであることを強調したいとき

母(population)という接頭語をつける場合もある

母平均・母標準偏差・母分散など

母数(parameter)

理論分布の特徴を定めている数的指標

正規分布の密度関数が与えるのは確率ではなく、確率密度(probability density)

知覚時間の一つの測定値である$ 31.43秒は、少数第3位を四捨五入した値であり、小数点以下ずっと測定したらピタリと$ 31.43秒となる確率は$ 0

重さのような連続的な測定値は、特定の点そのものが観察される確率を定義できない

データが観察される確率は点ではなく区間に付与される

累積分布関数(cumulative distribution function, CDF)(確率分布関数, 略して分布関数ともいう)

下限(この場合は$ -\infty)から$ xまでの確率を与える関数

分布関数には$ xよりも小さい値が観察される確率を与えるということ

正規分布の分布関数は以下のように表記する

$ F(x|\mu, \sigma)

たとえば、平均が$ 31.04であり、標準偏差が$ 2.07である正規分布の密度関数と分布関数は、それぞれ$ f(x|\mu = 31.04, \sigma = 2.07)と$ F(x|\mu = 31.04, \sigma = 2.07)のように表記する

データがこの分布に従っているとすると、$ 30秒以下のデータが観察される確率は、分布関数を評価し、以下のように計算できる

$ F(30|\mu = 31.04, \sigma = 2.07) \simeq 0.31

3割0分7厘ほど。$ 30.7\%

下限からではなく、任意の区間でデータが観察される確率は2つの分布関数の差で表現する

たとえば、次に測定する主観的な$ 30秒が、$ 30秒を超え$ 31秒以下である確率は以下のように計算できる

$ F(31|\mu = 31.04, \sigma = 2.07) - F(30|\mu = 31.04, \sigma = 2.07) \simeq 0,49 - 0.31 = 0.18

18.5%ほど

理論分布を利用すると特定区間で測定値が観察される確率を計算できるだけではなく、逆に特定の確率で測定値が観察される区間を求めることができる

これを予測区間(prediction interval)という

特定の確率には$ 95\%が利用されることが多い

正規分布の場合

$ F(\mu + 1.96\sigma|\mu, \sigma) - F(\mu-1.96\sigma|\mu, \sigma) \simeq 0.95

標準正規分布の場合

$ F(1.96|\mu=0, \sigma=1) - F(-1.96|\mu=0, \sigma=1) \simeq 0.95

したがって、「知覚時間」のデータに限らず、一般的に、$ 95\% 予測区間は$ [\mu-1.96\sigma, \mu + 1.96\sigma] である

推定値として、母平均には標本平均を利用し、母標準偏差には標本標準偏差を利用すると、「知覚時間」の95%予測区間は$ [26.99, 35.10] となる

分布関数を参照すると、95%に限らず、何%の予測区間でも構成できる

経験分布と比較して、理論分布である正規分布は、平均と標準偏差というたった2つの母数だけで分布の状態が決まり、手軽で便利

https://gyazo.com/90eff3bd70c61e0964f272c9f382264b

左図は確率密度関数で$ -1.96 \leq 1.96に相当するこの曲線の面積は約$ 0.95である

確率と面積が一致すると便利なので、正規分布に限らず、確率密度関数の総面積は$ 1

右図は確率分布関数で、$ F(-1|0, 1) \simeq 0.16, F(0|0,1) = 0.5, F(1|0, 1) \simeq 0.84であることが示されている

正規分布の中央値と最頻値は平均$ \muに一致する

理論分布の最頻値は、関数のピークを与える点である

分布関数は、上記の右図のように

$ F(+\infty|\mu, \sigma) = 1であり、$ xの増加に伴って限りなく$ 1に近づく

1.2.2. 一様分布

連続一様分布(continuous uniform distribution)

区間$ [\alpha, \beta] で均等に測定値が観察される連続的変数の理論分布

一様分布には、連続型と離散型がある。今後特に混合の恐れのない場合には、連続一様分布を単に一様分布という

区間$ [\alpha, \beta] の一様分布の確率密度関数は、2つの母数$ \alpha, \betaを用いて以下のように定義される

$ f(x|\alpha, \beta) = \frac{1}{\beta - \alpha}, \alpha \leq x \leq \beta

$ xが一様分布に従っていることを$ x \sim U(\alpha, \beta)と表記する

一様分布の分布関数は、正規分布の分布関数と異なり、以下のように簡単な式で書くことができる

$ F(x|\alpha, \beta) = \frac{x-\alpha}{\beta - \alpha}

たとえば30分おきに発射する列車があったとする。

この駅にデタラメに到着した人が、列車に乗車するまでの時間$ xは、範囲$ 0から$ 30の連続一様分布に従うと仮定できる

確率密度関数

$ f(x|0, 30) = \frac{1}{30-0}

5分から10分待たされる確率

$ f(10|0, 30) - f(5|0,30) = \frac{10-5}{30-0} = \frac{1}{6}

https://gyazo.com/ae5a79c3d0140005a068cd23c3e225d7

左図は一様分布の確率密度関数$ f(x|0, 1)

区間$ [0,1] において、同じ高さ$ 1.0の確率密度を有する

右図は左図に相当する確率分布関数$ F(x|0,1)

一様分布の平均と標準偏差はそれぞれ以下であることが知られている

$ 平均 = \frac{\beta + \alpha}{2}

$ 標準偏差 = \sqrt{\frac{(\beta - \alpha)^2}{12}}

駅の例

平均的に$ 15分($ =\frac{(30+0)}{2})待てば、列車に乗車できる

待ち時間の平均的なばらつきは、標準偏差を計算して、$ 8.66分($ \simeq \sqrt{\frac{(30-0)^2}{2}})

一様分布の中央値は平均値に一致する

また、一様分布の最頻値は区間$ [\alpha, \beta] 内の任意の点

すべての点が最頻値

1.2.3. 理論分布について

理論分布には2種類の使用法がある

本章では正規分布は「知覚時間」の分布として例示し、一様分布は列車の待ち時間の分布として例示した

このように、データ分布を理論分布で表現するとき、それをデータ生成分布(data generating distribution)という

理論分布はデータ生成分布としてばかりでなく事前分布としても利用される

事前分布はデータ生成分布の母数の分布であるが、それに関しては後続の章で詳述する

「知覚時間」のデータは正規分布に従っているのだろうか？

$ nの増加に伴ってヒストグラムは図1-2の左図(正規分布)に近づくのだろうか？

中心極限定理(central limit theorem)

同一の確率分布から互いの独立な測定値の標本平均の分布は、元の確率分布の形によらず、$ nの増加に伴っていくらでも正規分布に近づく

生の測定値そのものの分布が$ nの増加に伴って正規分布に近づくことを意味しない

正規分布は測定値が数万あろうと、それ以上であろうとたった2つの母数で分布の状態を完全に確定するから、現実の度数分布表とピタリと一致することは期待できない

データ分布より、少数の母数で表現される理論分布の方が簡潔な表現として便利だから方便として利用しているのである

→ 2. 事後分布とベイズの定理